地下模拟使用计算模型来预测流体(例如油,水,气体)通过多孔介质的流动。这些模拟在工业应用(例如石油生产)中至关重要,在这些应用中,需要快速,准确的模型来进行高级决策,例如,进行井安置优化和现场开发计划。经典的有限差数数值模拟器需要大量的计算资源来对大规模现实世界的水库进行建模。另外,通过依靠近似物理模型,流线模拟器和数据驱动的替代模型在计算上更有效,但是它们不足以在大规模上对复杂的储层动力学进行建模。在这里,我们介绍了混合图网络模拟器(HGNS),这是一个数据驱动的替代模型,用于学习3D地下流体流的储层模拟。为了模拟局部和全球尺度上的复杂储层动力学,HGN由地下图神经网络(SGNN)组成,以建模流体流的演化和3D-U-NET,以建模压力的演变。 HGNS能够扩展到每个时间步长数百万个单元的网格,比以前的替代模型高两个数量级,并且可以准确地预测流体流量数十亿个时间步长(未来几年)。使用带有110万个单元的行业标准地下流数据集(SPE-10),我们证明HGNS能够将推理时间降低到与标准地下模拟器相比,最高18次,并且通过降低基于学习的模型,它可以优于其他基于学习的模型长期预测错误高达21%。
translated by 谷歌翻译
一个良好的动作效果预测模型,称为环境模型,对于在机器人控制,推荐系统和患者治疗选择等许多领域中实现样本有效的决策政策学习非常重要。我们可以使用这种模型进行无限的试验来确定适当的行动,以便可以节省现实世界中的查询成本。它要求模型正确处理看不见的数据,也称为反事实数据。但是,标准数据拟合技术不会自动实现这种概括能力,通常会导致不可靠的模型。在这项工作中,我们在模型学习中引入了反事实风险最小化(CQRM),以推广到特定目标策略查询的反事实数据集。由于目标策略在政策学习中可能是各种各样且未知的,因此我们提出了一个对抗性CQRM目标,其中模型在对抗性策略查询的反事实数据上学习,并最终得出可拖延的解决方案Galileo。我们还发现,对抗性CQRM与对抗模型学习密切相关,从而解释了后者的有效性。我们将伽利略应用于综合任务和现实应用程序中。结果表明,伽利略对反事实数据做出了准确的预测,从而显着改善了现实世界测试的策略。
translated by 谷歌翻译
过去几年的技术创新的巨大浪潮,标志着AI技术的进展,是深刻的重塑行业和社会。然而,在路上,一个关键的挑战等待着我们,即我们满足快速增长的情景的能力的能力受到收购培训数据的成本的严重限制。由于主流学习范式的局限性,这一困难的局面是基于主流学习范式的局限性:我们需要根据大量注释的数据以及通常从头来训练每个新场景的新模型。在解决这一基本问题时,我们超越并开发一个名为实习生的新学习范式。通过在多个阶段的来自多个来源的监控信号学习,培训的模型将产生强大的相互性。我们在26个众所周知的数据集中评估我们的模型,该数据集涵盖计算机视觉中的四类任务。在大多数情况下,我们的模型仅适用于目标域中的培训数据的10%,始终以完整的数据培训的对应物,通常由显着的边距。这是一个重要前景的重要一步,其中具有一般视觉能力的这种模型可以大大降低对数据的依赖,从而加速通过AI技术的采用。此外,围绕我们的新范式旋转,我们还介绍了一个新的数据系统,新的架构和新的基准,以及一起形成一般愿景生态系统,以开放和包容性的方式支持其未来的发展。
translated by 谷歌翻译
The foundation models have recently shown excellent performance on a variety of downstream tasks in computer vision. However, most existing vision foundation models simply focus on image-level pretraining and adpation, which are limited for dynamic and complex video-level understanding tasks. To fill the gap, we present general video foundation models, InternVideo, by taking advantage of both generative and discriminative self-supervised video learning. Specifically, InternVideo efficiently explores masked video modeling and video-language contrastive learning as the pretraining objectives, and selectively coordinates video representations of these two complementary frameworks in a learnable manner to boost various video applications. Without bells and whistles, InternVideo achieves state-of-the-art performance on 39 video datasets from extensive tasks including video action recognition/detection, video-language alignment, and open-world video applications. Especially, our methods can obtain 91.1% and 77.2% top-1 accuracy on the challenging Kinetics-400 and Something-Something V2 benchmarks, respectively. All of these results effectively show the generality of our InternVideo for video understanding. The code will be released at https://github.com/OpenGVLab/InternVideo .
translated by 谷歌翻译
Open Information Extraction (OIE) methods extract a large number of OIE triples (noun phrase, relation phrase, noun phrase) from text, which compose large Open Knowledge Bases (OKBs). However, noun phrases (NPs) and relation phrases (RPs) in OKBs are not canonicalized and often appear in different paraphrased textual variants, which leads to redundant and ambiguous facts. To address this problem, there are two related tasks: OKB canonicalization (i.e., convert NPs and RPs to canonicalized form) and OKB linking (i.e., link NPs and RPs with their corresponding entities and relations in a curated Knowledge Base (e.g., DBPedia). These two tasks are tightly coupled, and one task can benefit significantly from the other. However, they have been studied in isolation so far. In this paper, we explore the task of joint OKB canonicalization and linking for the first time, and propose a novel framework JOCL based on factor graph model to make them reinforce each other. JOCL is flexible enough to combine different signals from both tasks, and able to extend to fit any new signals. A thorough experimental study over two large scale OIE triple data sets shows that our framework outperforms all the baseline methods for the task of OKB canonicalization (OKB linking) in terms of average F1 (accuracy).
translated by 谷歌翻译
Personal knowledge bases (PKBs) are crucial for a broad range of applications such as personalized recommendation and Web-based chatbots. A critical challenge to build PKBs is extracting personal attribute knowledge from users' conversation data. Given some users of a conversational system, a personal attribute and these users' utterances, our goal is to predict the ranking of the given personal attribute values for each user. Previous studies often rely on a relative number of resources such as labeled utterances and external data, yet the attribute knowledge embedded in unlabeled utterances is underutilized and their performance of predicting some difficult personal attributes is still unsatisfactory. In addition, it is found that some text classification methods could be employed to resolve this task directly. However, they also perform not well over those difficult personal attributes. In this paper, we propose a novel framework PEARL to predict personal attributes from conversations by leveraging the abundant personal attribute knowledge from utterances under a low-resource setting in which no labeled utterances or external data are utilized. PEARL combines the biterm semantic information with the word co-occurrence information seamlessly via employing the updated prior attribute knowledge to refine the biterm topic model's Gibbs sampling process in an iterative manner. The extensive experimental results show that PEARL outperforms all the baseline methods not only on the task of personal attribute prediction from conversations over two data sets, but also on the more general weakly supervised text classification task over one data set.
translated by 谷歌翻译
初始化时(OPAI)的一次性网络修剪是降低网络修剪成本的有效方法。最近,人们越来越相信数据在OPAI中是不必要的。但是,我们通过两种代表性的OPAI方法,即剪切和掌握的消融实验获得了相反的结论。具体而言,我们发现信息数据对于增强修剪性能至关重要。在本文中,我们提出了两种新颖的方法,即判别性的单发网络修剪(DOP)和超级缝制,以通过高级视觉判别图像贴片来修剪网络。我们的贡献如下。(1)广泛的实验表明OPAI是数据依赖性的。(2)超级缝线的性能明显优于基准图像网上的原始OPAI方法,尤其是在高度压缩的模型中。
translated by 谷歌翻译
我们解决了使四足机器人能够使用强化学习在现实世界中执行精确的射击技巧的问题。开发算法使腿部机器人能够向给定的目标射击足球,这是一个具有挑战性的问题,它将机器人运动控制和计划结合到一项任务中。为了解决这个问题,我们需要考虑控制动态腿部机器人期间的动态限制和运动稳定性。此外,我们需要考虑运动计划,以在地面上射击难以模拟的可变形球,并不确定摩擦到所需的位置。在本文中,我们提出了一个层次结构框架,该框架利用深厚的强化学习来训练(a)强大的运动控制政策,可以跟踪任意动议,以及(b)一项计划政策,以决定所需的踢球运动将足球射击到目标。我们将提议的框架部署在A1四足动物机器人上,使其能够将球准确地射击到现实世界中的随机目标。
translated by 谷歌翻译
构建一个通用视频语言模型,用于解决各种视频理解任务(例如,文本视频检索,视频问答)是对机器学习领域的开放挑战。为了实现这一目标,最近的尝试训练模型,通常由单峰和跨模式的特征编码器组成,并具有受监督或成对的对比度的预文本任务。尽管提供了有吸引力的通用性,但最终的模型必须在效率和性能之间妥协。我们认为这些缺陷是由它们的预训练策略\ Textemdash引起的,它们不能很好地对齐和融合不同方式的特征。然后,我们将三叶草(一种相关的视频预培训方法)介绍给一个通用的视频语言模型,该模型用于解决既不效率也不妥协的多个视频理解任务。它通过新的三模式比对预训练任务来改善跨模式特征对齐和融合。此外,我们建议通过合并蒙面样品的学习和新颖的成对排名损失来增强三模式对齐。三叶草表现出了出色的一般性。它在多个下游任务上建立了新的最新技术,包括零射击和微调设置的三个检索任务,以及八个视频问答任务。代码和预培训模型将在https://github.com/leeyn-43/clover上发布。
translated by 谷歌翻译
开放信息提取(OIE)方法从非结构化文本中提取大量的OIE三元<名词短语,关系短语,名词短语>,它们组成了大型开放知识基础(OKB)。此类OKB中的名词短语和关系短语不是规范化的,这导致了散落和冗余的事实。发现知识的两种观点(即,基于事实三重的事实视图和基于事实三重源上下文的上下文视图)提供了互补信息,这对于OKB规范化的任务至关重要,该信息将其簇为同义名词短语和关系短语分为同一组,并为他们分配唯一的标识符。但是,到目前为止,这两种知识的观点已被现有作品孤立地利用。在本文中,我们提出了CMVC,这是一个新颖的无监督框架,该框架利用这两种知识的观点共同将典范的OKBS化,而无需手动注释的标签。为了实现这一目标,我们提出了一种多视图CH K均值聚类算法,以相互加强通过考虑其不同的聚类质量从每个视图中学到的特定视图嵌入的聚类。为了进一步提高规范化的性能,我们在每个特定视图中分别提出了一个培训数据优化策略,以迭代方式完善学习视图的特定嵌入。此外,我们提出了一种对数跳跃算法,以数据驱动的方式预测簇数的最佳数量,而无需任何标签。我们通过针对最新方法的多个现实世界OKB数据集进行了广泛的实验来证明我们的框架的优势。
translated by 谷歌翻译